【数据库注释】数据库注释信息总结

您所在的位置:网站首页 数据库 注释 【数据库注释】数据库注释信息总结

【数据库注释】数据库注释信息总结

2024-01-20 14:42| 来源: 网络整理| 查看: 265

1.前言

一般注释内容分为6个部分:

基因及区域注释(2-22)

数据库(频率)注释(23-33)

保守(有害)性预测(34-49)

变异位点信息(50-56)

基因功能及通路注释(57-68)

基因的组织特异性表达情况的注释(69-73)

数据库注释信息的解读基本包含,下面将分别对这六个部分进行介绍,基本上能用到的数据库注释信息都在这了,以下对每列表头信息进行解释:

第一部分:基因及区域注释信息

(1)CHROM:  染色体

(2)POS:  变异位点在染色体上的绝对位置

(3)ID: dbSNP注释ID

(4)REF:  参考基因组碱基型

(5)ALT:  样本基因组碱基型

(6)QUAL:  变异的质量值,值越高越好。文献中常见以变异的质量值大于20为过滤标准

(7)FILTER:  过滤TAG,如果该位点满足所有过滤条件,则标记为PASS(采用国际惯用的过滤标准)

(8)GeneName:  基因名称注释,列出该变异所在的基因

(9)Description: 变异位点所在基因的描述

(10)Func:对变异位点所在的区域进行注释(exonic, splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3, ncRNA_UTR5, ncRNA _splicing, upstream, downstream, intergenic)。

(11)Gene:  列出该变异位点相关的转录本(只有功能符合Func列的转录本才列出)。如果Func列为intergenic,此处列出两侧的基因名

(12)GeneDetail:  描述UTR、splicing、ncRNA_splicing或intergenic区域的变异情况。

(13)ExonicFunc:  外显子区的SNV 或 InDel变异类型(SNV的变异类型包括synonymous_SNV, missense_SNV, stopgain, stopgloss和unknown;InDel的变异类型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown)

(14)AAChange:  氨基酸改变。

(15)Gencode: Gencode注释的基因名称

(16)cpgIslandExt:CpG岛预测结果,注释结果为CpG岛名称,如CpG: 116(116是该CpG岛中CG二核苷酸的数目)

(17)cytoband:该变异位点所处的染色体区段(利用Giemas染色观察得到的)。如果变异位点跨过多个区段,用短横线连接

(18)wgRna:  基于miRBase和snoRNABase,对变异位点相关的microRNA和snoRNA进行注释,给出microRNA和snoRNA的基因名称

(19)targetScanS: UCSC提供TargetScanS注释数据库,库中包含在3’UTR中保守的microRNA结合位点,来源于TargetScanHuman 5.1的预测结果;该软件预测microRNA的靶点,预测结果依据microRNA与靶点之间结合的效能进行排序,排名越靠前,说明microRNA与其靶点的结合越可能是实际存在的事件。

(20)tfbsConsSites:  基于transfac矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值

(21)genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。

(22)Repeat:  重复序列注释信息,重复序列来源于RepeatMasker注释。

第二部分:数据库(频率)注释

(23)avsnp:  该变异在dbSNP中的ID

(24)ClinVar:  注释变异与人类疾病之间的关系,临床意义的数据来源于NCBI

(25)gwasCatalog:  检测变异位点是否在以往的GWAS研究中被报导,表示该变异位点与哪些疾病相关联,"."表示没有GWAS报导。

(26)1000g_Chinese:  给出千人基因组计划数据的中国人群中,该变异位点上突变碱基的等位基因频率

(27)1000g_EAS:  给出千人基因组计划数据的东亚人群中,该变异位点上突变碱基的等位基因频率

(28)1000g_ALL:给出千人基因组计划数据的所有人群中,该变异位点上突变碱基的等位基因频率

(29)esp6500si_all:  国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternative allele frequency)

(30)GnomAD_ALL_AF:指在所有人群中,该变异位点上突变碱基的等位基因频率

(31)GnomAD_ALL_AN:指在所有人群中,该变异位点上突变碱基的等位基因的数目

(32)GnomAD_EAS_AF:指在所有亚洲人群中,该变异位点上突变碱基的等位基因频率

(33)GnomAD_EAS_AN:指在所有亚洲人群中,该变异位点上突变碱基的等位基因基因的数目

第三部分:保守(有害)性预测

(34)dbscSNV_SCORE: dbscSNV是基于多种预测突变是否影响splicing的软件,通过Ada和RF两种机器学习方法得到两个综合的预测分值。

(35)spidex:预测基因突变如何影响RNA剪接,

(36)Interpro_domain: Interpro数据库注释的突变位点所在蛋白质的结构域

(37)SFT: SIFT分值(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是SIFT_score和SIFT_pred:SIFT_score是SIFT分值, SIFT_pred是预测结果,取值为T或者D。

(38)Polyphen2_HVAR:  利用PolyPhen2基于HumanVar数据库预测该变异对蛋白序列的影响,用于单基因遗传病(dbNSFP version3.0)。该列包含两个值,第一个是PolyPhen 2分值;第二个是D或P或B(D: Probably damaging (>=0.909), P: Possibly damaging (0.447



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3